<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>给范围字段分桶的微妙之处 | ElasticSearch 7.7 权威指南中文版</title>
	<meta name="keywords" content="ElasticSearch 权威指南中文版, elasticsearch 7, es7, 实时数据分析，实时数据检索" />
    <meta name="description" content="ElasticSearch 权威指南中文版, elasticsearch 7, es7, 实时数据分析，实时数据检索" />
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
	<script>
	var _link = 'search-aggregations-bucket-range-field-note.html';
    </script>
</head>
<body>
<div class="main-container">
    <section id="content">
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/reference/7.7/search-aggregations-bucket-range-field-note.html" rel="nofollow" target="_blank">https://www.elastic.co/guide/en/elasticsearch/reference/7.7/search-aggregations-bucket-range-field-note.html</a>, 原文档版权归 www.elastic.co 所有<br/>本地英文版地址: <a href="../en/search-aggregations-bucket-range-field-note.html" rel="nofollow" target="_blank">../en/search-aggregations-bucket-range-field-note.html</a></div>
                        <!-- start body -->
                  <div class="page_header">
<strong>重要</strong>: 此版本不会发布额外的bug修复或文档更新。最新信息请参考 <a href="https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html" rel="nofollow">当前版本文档</a>。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch 权威指南 [7.7]</a></span>
»
<span class="breadcrumb-link"><a href="search-aggregations.html">聚合</a></span>
»
<span class="breadcrumb-link"><a href="search-aggregations-bucket.html">桶(bucket)聚合</a></span>
»
<span class="breadcrumb-node">给范围字段分桶的微妙之处</span>
</div>
<div class="navheader">
<span class="prev">
<a href="search-aggregations-bucket-terms-aggregation.html">« terms 聚合</a>
</span>
<span class="next">
<a href="search-aggregations-pipeline.html">管道(pipeline)聚合 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="search-aggregations-bucket-range-field-note"></a>给范围字段分桶的微妙之处
</h2>
</div></div></div>
<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_documents_are_counted_for_each_bucket_they_land_in"></a>文档会根据它们落入的桶进行计数
</h3>
</div></div></div>
<p>
因为一个范围代表多个值，所以对一个范围字段运行桶聚合会导致同一文档出现在多个桶中。

这可能导致令人惊讶的结果，例如桶计数的总和高于匹配文档的数量。

例如，看下面这个索引：
</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">PUT range_index
{
  "settings": {
    "number_of_shards": 2
  },
  "mappings": {
    "properties": {
      "expected_attendees": {
        "type": "integer_range"
      },
      "time_frame": {
        "type": "date_range",
        "format": "yyyy-MM-dd||epoch_millis"
      }
    }
  }
}

PUT range_index/_doc/1?refresh
{
  "expected_attendees" : {
    "gte" : 10,
    "lte" : 20
  },
  "time_frame" : {
    "gte" : "2019-10-28",
    "lte" : "2019-11-04"
  }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/541.console"></div>
<p>该范围<span class="remark">(10 ~ 20)</span>比下面这个聚合中的 interval 更宽，因此文档将落入多个桶中。</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">POST /range_index/_search?size=0
{
    "aggs" : {
        "range_histo" : {
            "histogram" : {
                "field" : "expected_attendees",
                "interval" : 5
            }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/542.console"></div>
<p>因为 interval 是<code class="literal">5</code>(默认情况下偏移量是<code class="literal">0</code>)，所以我们期望桶是 <code class="literal">10</code>、<code class="literal">15</code> 和 <code class="literal">20</code>。上面那个范围文档将属于这三个桶。</p>
<div class="pre_wrapper lang-console-result">
<pre class="programlisting prettyprint lang-console-result">{
  ...
  "aggregations" : {
    "range_histo" : {
      "buckets" : [
        {
          "key" : 10.0,
          "doc_count" : 1
        },
        {
          "key" : 15.0,
          "doc_count" : 1
        },
        {
          "key" : 20.0,
          "doc_count" : 1
        }
      ]
    }
  }
}</pre>
</div>
<p>
文档不能部分存在于一个桶中；比如上面的文档，在上面的三个桶里都不能算三分之一。

在这个例子中，由于文档的范围落在多个桶中，该文档的全部值也将计入每个桶的任何子聚合中。
</p>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_query_bounds_are_not_aggregation_filters"></a>查询界限不是聚合过滤器
</h3>
</div></div></div>
<p>
查询用于过滤正在聚合的字段时，可能会出现另一种意外的行为。

在这种情况下，文档可能与查询匹配，但仍有一个或两个端点在查询范围之外。

比如下面这个对上述文档的聚合：
</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">POST /range_index/_search?size=0
{
    "query": {
      "range": {
        "time_frame": {
          "gte": "2019-11-01",
          "format": "yyyy-MM-dd"
        }
      }
    },
    "aggs" : {
        "november_data" : {
            "date_histogram" : {
                "field" : "time_frame",
                "calendar_interval" : "day",
                "format": "yyyy-MM-dd"
              }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/543.console"></div>
<p>尽管这个查询只考虑11月的天数，但聚合产生了8个时段(10月4个，11月4个)，因为聚合是在所有匹配文档的范围内计算的。</p>
<div class="pre_wrapper lang-console-result">
<pre class="programlisting prettyprint lang-console-result">{
  ...
  "aggregations" : {
    "november_data" : {
      "buckets" : [
              {
          "key_as_string" : "2019-10-28",
          "key" : 1572220800000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-10-29",
          "key" : 1572307200000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-10-30",
          "key" : 1572393600000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-10-31",
          "key" : 1572480000000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-11-01",
          "key" : 1572566400000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-11-02",
          "key" : 1572652800000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-11-03",
          "key" : 1572739200000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-11-04",
          "key" : 1572825600000,
          "doc_count" : 1
        }
      ]
    }
  }
}</pre>
</div>
<p>
根据用例的不同，<code class="literal">CONTAINS</code>查询可以将文档限制为完全属于查询范围的文档。

在本例中，那个文档不会被包括进去，聚合将为空。

对于应该对文档进行计数，但是可以安全地忽略越界数据的用例，在聚合之后对桶进行过滤也是一种选择。
</p>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="search-aggregations-bucket-terms-aggregation.html">« terms 聚合</a>
</span>
<span class="next">
<a href="search-aggregations-pipeline.html">管道(pipeline)聚合 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>